OTTER: Data Efficient Language-Supervised Zero-shot Recognition with Optimal Transport Distillation
CLIPは訓練には400M以上のtext-image対が必要
だが、text-image対にノイズが入っていることが部分的な要因である 対照学習の中でSoft matchを実現するために、online entropic optimal transportを使用
-> 3Mの対で高い性能を達成
少ないデータであっても、richに学習を進めることができる。
https://scrapbox.io/files/653b6f5b0bbde8001bb7c67b.png
キャプション・画像が多対多のマッチをすることは一般的であり、GTが唯一というわけではない。
主張
単位行列の仮定は一般的でなく、ほかにマッチするもの(ノイズ)
N個の画像-テキスト対のBatchに対し、確率変数$ Y_i \in{1,...,N}を考える。、$ q(Y_i = j|\bm{v}_{1:N},\bm{t}_{1:N})=\alpha I_{ij}+(1-\alpha)M_{ij} として定式化し、この分布を使いたい。ただし、$ M_{ij} = q_v(Y_i=j|\bm{v}_{1:N},\bm{t}_{1:N})とし、対角成分は0である。
この式の意味するところとして、target分布の正体は、画像がテキストにマッチしない条件付き確率であり、$ \alphaはノイズの小ささを表す。、ほかにマッチするやつが多いほど、0に近い(=ノイズキャプションが多い)
label smoothing手法では、$ M^v_{ij}=\frac{1-I_{ij}}{N-1},\;\;\; \forall i,jとして一様分布を仮定
https://scrapbox.io/files/653b9222a57ed0001b4bb701.png
(from yuwd)
そのような分布をどのように得るか? -> 最適輸送問題に落とし込む $ M_{v}^∗ =\text{argmax}_{M∈\mathcal{M}} ⟨M,S _v ⟩ _F +λH(M)
$ S_vは類似度行列、$ v_iから$ t_iへの類似度
この双対問題として、(Culturi+, 13)では以下の正規化指数行列の形になる。 $ M _v^ ∗ =\text{Diag}(r)\text{exp}(S_v /λ)\text{Diag}(c)
$ r, c\in\mathbb{R}^Nは行と列の正規化ベクトル、Sinkhorn-Knoppアルゴリズムによって計算される。
温度パラメータ$ \lambdaは、大きいほどsoftな分布を、小さいほど硬い分布を導く。
類似度行列を以下とする。
$ S _v =γ _v \tilde{Z}_v ^⊤ \tilde{Z}_v +γ_t\tilde{Z}_t ^⊤ \tilde{Z}_t + \tilde{Z}_v^⊤ \tilde{Z}_t −ηI_N
画像同士、テキストどうし、マルチモーダルの類似度、角を減らす
従来の知識蒸留の拡張として、画像同士、テキストどうしの正規化も行う。
結局infoNCEは使っているので、そこをReCoにする?
infoNCEでrigidなものもやっているという意図なのか?
実装
https://scrapbox.io/files/653b727d346d34001bf1f192.png
https://scrapbox.io/files/653b72aa3e0ce6001c9c808d.png
ALIGN
UNITER
Wasserstein contrastive representation distillation.